智能论文笔记

Applying Spatiotemporal Attention to Identify Distracted and Drowsy Driving with Vision Transformers

Samay Lakhani

分类：计算机视觉 | 人工智能

2022-07-22

与2020年相比，由于注意力和嗜睡的增加，汽车撞车事故增长了20％。昏昏欲睡和分心的驾驶是所有车祸的45％的原因。作为减少昏昏欲睡和分心的驾驶的一种手段，使用计算机视觉的检测方法可以设计为低成本，准确和微创。这项工作调查了视觉变压器以优于3D-CNN的最先进准确性。两个独立的变压器接受了嗜睡和分心。昏昏欲睡的视频变压器模型接受了全国Tsing-hua大学昏昏欲睡的驾驶数据集（NTHU-DDD）的培训，其中有一个视频Swin Transformer模型，可在两个类别上进行10个时代 - 昏昏欲睡和非der脚模拟10.5个小时。分散注意力的视频变压器在驾驶员监视数据集（DMD）上接受了带有视频SWIN变压器的50个时代的培训，该时期超过9个分心相关的类。嗜睡模型的准确性达到44％，测试集的损失值高，表明过度拟合和模型性能差。过度拟合表明有限的培训数据和应用模型体系结构缺乏可量化的参数。分散注意力的模型优于DMD上的最新模型，达到97.5％，表明有足够的数据和强大的体系结构，变压器适合不适合驾驶检测。未来的研究应使用较新的模型，例如Tokenlearner来实现更高的准确性和效率，合并现有数据集以扩展以检测酒后驾车和道路愤怒，以创建全面的解决方案，以防止交通崩溃，并部署功能性的原型，以革新自动安全安全性行业。

translated by 谷歌翻译

本文介绍了Augraphy，这是一个旨在用于文档图像的现实数据增强策略的Python软件包。Augraphy使用许多不同的增强策略来产生增强版本的干净文档图像，这些图像似乎已经从标准的办公室操作中扭曲了，例如打印，扫描和传真通过旧机器或肮脏的机器，随着时间的推移降解，以及手写的标记。Augraphy既可以用作（1）为文档De-Noinging等任务生成多样化的培训数据的数据增强工具，以及（2）生成具有挑战性的测试数据，以评估文档图像建模任务上的模型鲁棒性。本文概述了Augraphy，并提供了三个示例稳健性测试AUGRAPHY的用例。

translated by 谷歌翻译